Extraction automatique de termes-clés : Comparaison des méthodes non supervisées de la littérature

نویسندگان

  • Josiane Mothe
  • Faneva Ramiandrisoa
چکیده

This article presents a state of the art and a comparison of unsupervised methods for automatic keywords extraction from documents. We evaluate several methods from the literature on two sets of documents by comparing the keywords extracted and those initially associated with documents. We found that the best method (the one that retrieves keywords the closest to the authors’ keywords) is based on TF-IDF. MOTS-CLÉS : extraction automatique de termes-clés, méthodes non supervisées, représentation

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

State of the Art of Automatic Keyphrase Extraction Methods (État de l'art des méthodes d'extraction automatique de termes-clés) [in French]

State of the Art of Automatic Keyphrase Extraction Methods This article presents the state of the art of the automatic keyphrase extraction methods. The aim of the automatic keyphrase extraction task is to extract the most representative terms of a document. Automatic keyphrase extraction methods can be divided into two categories : supervised methods and unsupervised methods. For supervised me...

متن کامل

Classification automatique de courriers électroniques par des méthodes mixtes d'apprentissage

RÉSUMÉ. Les nouvelles formes de communication écrite (courriels, forums, chats, SMS, etc.) ont introduit des défis considérables pour leur traitement automatique. Ces données présentent des phénomènes linguistiques bien particuliers : messages trop courts, très bruités... Nous présentons des recherches destinées à créer des outils et des ressources génériques pour la classification de courriels...

متن کامل

Un outil de détection automatique de thèmes

Vu la quantité de documents numériques disponible sur le Web et la nécessité de mettre au point des techniques de recherche efficaces, les systèmes de recherche d'information font de plus en plus appel aux techniques de Traitement Automatique des Langues (TAL) qui exploitent les informations syntaxiques ou sémantiques, dans le but d’améliorer la qualité des résultats fournis par les moteurs de ...

متن کامل

Extraction automatique d'affixes pour la reconnaissance d'entités nommées chimiques

Résumé. Dans cet article nous détaillons une approche permettant de détecter des affixes et des termes déclencheurs à partir de dictionnaires de façon automatique en se basant sur l’algorithme de la plus longue sous-chaîne commune, dans le cadre de la reconnaissance d’entités nommées chimiques sur CHEMDNER. Nous verrons ensuite des méthodes de sélection et de tri afin de les intégrer au mieux d...

متن کامل

The impact of domains for Keyphrase extraction (Influence des domaines de spécialité dans l'extraction de termes-clés) [in French]

Résumé. Les termes-clés sont les mots ou les expressions polylexicales qui représentent le contenu principal d’un document. Ils sont utiles pour diverses applications, telles que l’indexation automatique ou le résumé automatique, mais ne sont pas toujours disponibles. De ce fait, nous nous intéressons à l’extraction automatique de termes-clés et, plus particulièrement, à la difficulté de cette ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2016